MaisConhecer - Sistema de IA aprende a manter o tráfego de robôs em armazéns funcionando sem problemas.

Sistema de IA aprende a manter o tráfego de robôs em armazéns funcionando sem problemas.

Essa nova abordagem se adapta para decidir quais robôs devem ter prioridade em cada momento, evitando congestionamentos e aumentando a produtividade.

"Essa é uma abordagem muito promissora, porque nesses armazéns gigantescos, mesmo um aumento de 2 ou 3% na produtividade pode ter um impacto enorme", diz Han Zheng. Créditos: Imagem: MIT News; iStock

Dentro de um gigantesco armazém autônomo, centenas de robôs percorrem os corredores, coletando e distribuindo itens para atender a um fluxo constante de pedidos de clientes. Nesse ambiente movimentado, até mesmo pequenos congestionamentos ou colisões leves podem se transformar em grandes paralisações.

Para evitar essa avalanche de ineficiências, pesquisadores do MIT e da empresa de tecnologia Symbotic desenvolveram um novo método que mantém automaticamente uma frota de robôs em movimento contínuo. O método aprende quais robôs devem ir primeiro a cada instante, com base na formação do congestionamento, e se adapta para priorizar os robôs que estão prestes a ficar presos. Dessa forma, o sistema consegue redirecionar os robôs com antecedência para evitar gargalos.

O sistema híbrido utiliza aprendizado por reforço profundo, um poderoso método de inteligência artificial para resolver problemas complexos, para determinar quais robôs devem ser priorizados. Em seguida, um algoritmo de planejamento rápido e confiável fornece instruções aos robôs, permitindo que eles respondam rapidamente em condições em constante mudança.

Em simulações inspiradas em layouts reais de armazéns de comércio eletrônico, essa nova abordagem alcançou um ganho de produtividade de cerca de 25% em comparação com outros métodos. É importante ressaltar que o sistema pode se adaptar rapidamente a novos ambientes com diferentes quantidades de robôs ou layouts de armazém variados.

“Existem muitos problemas de tomada de decisão na indústria e na logística em que as empresas dependem de algoritmos desenvolvidos por especialistas humanos. Mas demonstramos que, com o poder do aprendizado por reforço profundo, podemos alcançar um desempenho sobre-humano. Essa é uma abordagem muito promissora, porque nesses armazéns gigantescos, mesmo um aumento de 2% ou 3% na produtividade pode ter um impacto enorme”, afirma Han Zheng, estudante de pós-graduação no Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT e principal autor de um artigo sobre essa nova abordagem.

Zheng é acompanhado no artigo por Yining Ma, pós-doutoranda do LIDS; Brandon Araki e Jingkai Chen, da Symbotic; e pela autora sênior Cathy Wu, Professora Associada de Desenvolvimento de Carreira da Classe de 1954 em Engenharia Civil e Ambiental (CEE) e no Instituto de Dados, Sistemas e Sociedade (IDSS) do MIT, e membro do LIDS. A pesquisa foi publicada hoje no Journal of Artificial Intelligence Research .

Robôs de redirecionamento

Coordenar centenas de robôs simultaneamente em um armazém de comércio eletrônico não é tarefa fácil.

O problema é especialmente complexo porque o armazém é um ambiente dinâmico, e os robôs recebem continuamente novas tarefas após atingirem seus objetivos. Eles precisam ser redirecionados rapidamente ao entrarem e saírem do armazém.

As empresas frequentemente utilizam algoritmos desenvolvidos por especialistas humanos para determinar onde e quando os robôs devem se mover para maximizar o número de pacotes que podem processar.

Mas, em caso de congestionamento ou colisão, a empresa pode não ter outra opção senão paralisar todo o armazém por horas para resolver o problema manualmente.

“Nesse cenário, não temos uma previsão exata do futuro. Sabemos apenas o que o futuro pode reservar, em termos dos pacotes que chegam ou da distribuição de pedidos futuros. O sistema de planejamento precisa ser adaptável a essas mudanças à medida que as operações do armazém acontecem”, diz Zheng.

Os pesquisadores do MIT alcançaram essa adaptabilidade usando aprendizado de máquina. Eles começaram projetando um modelo de rede neural para observar o ambiente do armazém e decidir como priorizar os robôs. Eles treinaram esse modelo usando aprendizado por reforço profundo, um método de tentativa e erro no qual o modelo aprende a controlar robôs em simulações que imitam armazéns reais. O modelo é recompensado por tomar decisões que aumentam a produtividade geral, evitando conflitos.

Com o tempo, a rede neural aprende a coordenar muitos robôs de forma eficiente.

“Ao interagir com simulações inspiradas em layouts reais de armazéns, nosso sistema recebe feedback que usamos para tornar sua tomada de decisões mais inteligente. A rede neural treinada pode então se adaptar a armazéns com layouts diferentes”, explica Zheng.

Ele foi projetado para capturar as restrições e obstáculos de longo prazo no percurso de cada robô, levando em consideração também as interações dinâmicas entre os robôs enquanto se movem pelo armazém.

Ao prever as interações atuais e futuras entre robôs, o modelo planeja evitar congestionamentos antes que eles aconteçam.

Após a rede neural decidir quais robôs devem receber prioridade, o sistema emprega um algoritmo de planejamento comprovado para instruir cada robô sobre como se mover de um ponto a outro. Esse algoritmo eficiente ajuda os robôs a reagirem rapidamente no ambiente dinâmico do armazém.

Essa combinação de métodos é fundamental.

“Essa abordagem híbrida se baseia no trabalho do meu grupo sobre como alcançar o melhor dos dois mundos entre o aprendizado de máquina e os métodos clássicos de otimização. Os métodos de aprendizado de máquina puro ainda têm dificuldades para resolver problemas complexos de otimização, e, ao mesmo tempo, é extremamente trabalhoso e demorado para especialistas humanos desenvolverem métodos eficazes. Mas, em conjunto, usar métodos desenvolvidos por especialistas da maneira correta pode simplificar enormemente a tarefa de aprendizado de máquina”, afirma Wu.

Superando a complexidade

Após treinarem a rede neural, os pesquisadores testaram o sistema em armazéns simulados diferentes daqueles vistos durante o treinamento. Como as simulações industriais eram muito ineficientes para esse problema complexo, os pesquisadores projetaram seus próprios ambientes para imitar o que acontece em armazéns reais.

Em média, sua abordagem híbrida baseada em aprendizado alcançou um aumento de 25% na produtividade em comparação com algoritmos tradicionais e métodos de busca aleatória, em termos de número de pacotes entregues por robô. Sua abordagem também foi capaz de gerar planos de trajetória viáveis para os robôs, superando os congestionamentos causados pelos métodos tradicionais.

“Principalmente quando a densidade de robôs no armazém aumenta, a complexidade cresce exponencialmente e esses métodos tradicionais rapidamente começam a falhar. Nesses ambientes, nosso método é muito mais eficiente”, diz Zheng.

Embora o sistema ainda esteja longe de ser implementado no mundo real, essas demonstrações destacam a viabilidade e os benefícios de usar uma abordagem guiada por aprendizado de máquina na automação de armazéns.

No futuro, os pesquisadores pretendem incluir a atribuição de tarefas na formulação do problema, visto que determinar qual robô executará cada tarefa impacta o congestionamento. Eles também planejam expandir seu sistema para armazéns maiores com milhares de robôs.

Esta pesquisa foi financiada pela Symbotic.

Tecnologia Científica

Robôs de redirecionamento

Superando a complexidade

“Principalmente quando a densidade de robôs no armazém aumenta, a complexidade cresce exponencialmente e esses métodos tradicionais rapidamente começam a falhar. Nesses ambientes, nosso método é muito mais eficiente”, diz Zheng.